# 热门搜索 #
搜索
搜索: Claude3 Op
陈丹琦团队新作:微调8B模型超越Claude3 Opus,背后是RLHF新平替

比斯坦福DPO(直接偏好优化)更简单的RLHF平替来了,来自陈丹琦团队。 该方式在多项测试中性能都远超DPO,还能让8B模型战胜Claude 3的超大杯Opus。 而且与DPO相比,训练时间和GPU消耗也都大幅减少。

来自主题: AI资讯
7891 点击    2024-05-27 16:39